The Dawn of GUI Agent: A Preliminary Case Study with Claude 3.5 Computer Use
https://scrapbox.io/files/675638b7a57c142ec586529b.png
論文情報
発行日:2024年11月
所属:ショーラボ、シンガポール国立大学
以下のように、様々な領域のケースで実験した。
https://scrapbox.io/files/67563753115e116102743fca.png
Web検索
ワークフロー
ビデオゲーム(エンタメ)
生産性ツール
の分野で、12のソフトウェア&Webで、20のタスクを実験した。
/icons/hr.icon
Claudeの動作フローは、時刻tにおいて、以下の基本ループとなる。
1. スクリーンショット(It)を取得
2. 以前のスクリーンショット履歴(It-1history)を参照
3. ユーザーの指示(Xinstr)と合わせて推論
4. アクション(Ytaction)を生成
結果は以下の通り
https://scrapbox.io/files/67563795d40b3b9b69fc494a.png
https://scrapbox.io/files/675638fcbacf3e876ab55db7.png
傾向:
構造化されたワークフローやゲームタスクでは、高い成功率
より自由度の高いOffice作業(生産性タスク)では、比較的失敗が多い
特に細かい操作や正確な選択が必要なタスクで失敗が目立つ
なぜこの傾向が見られたか?
ゲームタスクは
明確な構造 (ボタン、操作、UI)
明確なフィードバック (視覚的エフェクト)
限定された選択肢 (アクションの明確な定義)
一貫した操作パターン (同様の操作が繰り返される)
これに対して、Office作業の場合...
テキスト選択の精度が必要な作業
複雑な状態判断が必要な作業
インターフェースの自由度が高い作業
失敗パターンの特徴
計画エラー
Fox Sports Subscriptionのケース:スクロールによる探索が必要な場面で、代わりにACCOUNTタブに移動するという誤った計画を立てた
アクションエラー
Resume Template更新のケース:テキスト選択の精度の問題により、全体を選択できなかった
Excel式の入力:正しい列の選択ができなかった
批評エラー
Numbering Symbolのケース:実際の結果を正しく評価できず、タスクが完了したと誤って判断した
論文の考察
失敗の多くは、モデルの視覚的認識能力よりも、アクションの正確性や状態評価の問題に起因
特に批評(Critic)の能力向上が重要な改善点として指摘
タスクの複雑さよりも、インターフェースの正確な操作と状態理解が成功の鍵となっている